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L'invention concerne un dispositif de reconnaissance vocaie 
d6clenchement volontaire de certaines phases de la reconnaissance. 
L'invention concerne egalement un dispositif pour realiser le declenchement, en 
s particulier a distance. L'invention s'applique notamment dans le domaine de la 
television, 

Un systeme de reconnaissance vocaie typique comporte d'une part 
un processeur audio incluant des moyens d'acquisition et de traitement d*un 
10 signal audio representatif des donnees vocales a reconnattre et d*autre part un 
decodeur linguistique comportant le moteur de reconnaissance vocaie 
proprement dit. Ce moteur utilise un modele acoustique et un modele de 
langage pour realiser la reconnaissance sur la base des signaux audio 
pretraites par le processeur audio. 

15 

En particulier lorsque ie modele de langage est base sur des 
grammaires, Tanalyse d'une phrase par le moteur de reconnaissance ne 
commence qu'aprds Texpiration d'un delai predetermine durant lequel aucun 
signal audio n'est regu. On considere alors que Tinterlocuteur du systeme a fini 
20 de prononcer sa phrase. 



Selon Tapplication envisagee, le choix du delai devient cornelien. S'il 
est choisi trop long, le retard de traitement d'une phrase peut devenir 
redhibitoire. S'il est choisi trop court, alors des hesitations dans Tenonciation de 
25 la phrase par Tutilisateur peuvent declencher le traitement avant que cette 
6nonciation ne soit terminee. De telles hesitations apparaissent par exemple 
lorsque I'interlocuteur prend connaissance, en meme temps qu'il commence sa 
phrase, de donnees s'affichant sur un ecran en reponse a des actions 
precedentes, 

30 

Pour eviter les declenchements de traitement intempestifs suite a 
des hesitations, on peut envisager d'allonger le delai predetermine, dont la 
duree peut aller au-dela de cinq ou six secondes. Dans I'application envisagee 
ici. en I'occurrence la commande vocaie d'un recepteur de television et 
35 d'applications s'y rapportant. cet ordre de grandeur de delai est incompatible 
avec les attentes du consommateur. 
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L'invention a pour objet un dispositif de reconnaissance vocale 
caracterise en ce qu'il comporte 

- un circuit d'acquisition d'un signal comportant des donn^es vocales 
en provenance d'un utilisateur, 

5 - des moyens de detection d'un signal de fin de donnees vocales 

genere par intervention de I'utilisateur, 

- des moyens d'analyse des donnees vocales aptes a nnodifier 
revolution de I'analyse en fonction du signal de fin de donnees vocales. 

10 Ainsi, I'utilisateur peut intervenir directement sur I'analyse, en 

signifiant qu'il a fini d'enoncer son texte. 

Selon un mode de realisation particulier, les moyens d'analyse des 
donnees vocales finalisent I'analyse des donnees vocales precedemment 
15 stockees sur reception du signal de fin de donnees vocales. 

Selon un mode de realisation particulier, les moyens d'analyse 
mettent en oeuvre un algorithme de type Viterbi et le retra9age a travers des 
etats passes pour determiner une ou plusieurs sequences de mots susceptibles 
20 de correspondre aux donnees vocales est d6marre des reception du signal de 
fin de donnees vocales. 

Selon un mode de realisation particulier, le signal de fin de donnees 
est genere par activation manuelle d'un moyen de generation de signal par 
25 Tufilisateur 

Selon un mode de realisafion particulier, le moyen de generation de 
signal de fin de donnees comporte un interrupteur d'une telecommande. 

30 Selon un mode de realisation particulier, le signal comportant les 

donnees vocales est regu par transmission sans fil. 

L'invenfion a aussi pour objet un dispositif de t6l6commande 
comportant un microphone pour generer un signal comportant des donnees 
35 vocales et des circuits d'emission du signal comportant des donn§es vocales 
caracterise en ce qu'il comporte en outre des moyens de generation et 
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d'emission d'un signal de fin de donnees vocales actionnables par un 
utilisateur. 

Selon un mode de realisation particulier. les moyens de generation 
5 de signal de fin de donnees vocales comprennent un interrupteur actionnabie 
par Tutilisateur. 



Selon un mode de realisation particulier, I'interrupteur est dispose de 
maniere a controler le fonctionnement des circuits d'emission du signal 
10 comportant des donnees vocales. 
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Selon un mode de realisation particulier, le signal de fin de donnees 
vocales est constitue par le passage de la presence de porteuse du signal 
comportant des donnees vocales a Tabsence de porteuse. 



^invention a aussi pour objet un precede de reconnaissance vocale 
caracterise en ce qu'il comporte les etapes : 

- d'acquisition d'un signal comportant des donnees vocales, 

- d'analyse du signal acquis en vue de la recherche de mots ou de 
20 sequences de mots representatlfs du signal acquis, I'analyse comportant 

plusieurs phases successives, 

- de conditionnement de franchissement d'au moins une phase a la 
reception d'un signal de fin de donnees vocales declenche par un utilisateur. 

25 Selon un mode de realisation particulier, Tetape d'analyse du signal 

acquis comporte une phase de determination en parallele d'une pluralite de 
mots ou de sequences de mots candidats representatifs du signal acquis, et 
une phase de choix d'un mot ou d'une sequence de mots parmi candidats. 



30 

D'autres caracteristiques et avantages de invention apparaitront a 
travers la description d'un exemple de realisation particulier non limitatif. Get 
exemple sera decrit en liaison avec les dessins joints parmi lesquels 

- la figure 1 est un diagramme d'un systeme de reception de 
35 television mettant en oeuvre un sous-systeme de reconnaissance vocale, 

- la figure 2 est un organigramme d'un exemple de mise en oeuvre du 
precede objet de invention. 




4 

Le systeme de la figure 1 comprend une telecommande 1 et un 
recepteur de television 2. 

5 La telecommande 1 comporte de fa9on connue un clavier de touches 

10, un microprocesseur 11 configure pour recevoir les signaux en provenance 
du clavier 10, et un circuit de modulation analogique et de transmission par 
ondes infrarouges 12, pour emission vers le televiseur 2. 

La telecommande 1 comporte en outre un microphone 13 relie a un 

10 circuit de modulation en radio frequences 14. Ce circuit 14 est reli6 a une 
antenne 15, pour emission des signaux RF vers le televiseur 2. Le circuit de 
modulation 14 et le microphone 13 sent controles par le microprocesseur 

La telecommande est egalement equipee d'un interrupteur 16, reli6 
au microprocesseur 1 1 . 

15 La vole infrarouges de la telecommande fonctionne de fagon 

classique. La voie radiofrequences fonctionne de la maniere suivante : lorsque 
Tutilisateur actionne Tinterrupteur 16, le microprocesseur 11 commande de 
fagon appropriee le circuit de modulation et le microphone pour que les signaux 
vocaux de Tutilisateur soient traites et transmis par I'antenne 15. Lorsque 

20 rinterrupteur n'est pas actionne, Talimentation de Tensemble des organes 
necessaires a la voie radiofrequences est coupee, dans le but de reduire leur 
consommation. 

Un signal RF n'est done transmis au televiseur que lorsque 
rinterrupteur est actionne. 
25 Une telecommande d'un type similaire est decrite dans la demande 

de brevet frangais FR 9804847, deposee le 17 avril 1998 au nom de 
THOMSON multimedia et publiee le 22 octobre 1999 sous le numero FR 
2777681. 

Le role de la telecommande est done simplement d'acquerir le signal 
30 audio et de le transmettre sous forme analogique au televiseur. Dans le cadre 
du present exemple. le traitement effectue par la telecommande est reduit au 
minimum pour limiter sa consommation electrique. 

Le recepteur de television 2 comporte une antenne 20 pour la 
35 r6ception des signaux en provenance de Tantenne de la telecommande, ainsi 
qu'un circuit de reception infrarouge 21. L'antenne 20 est reliee a un circuit de 
syntonisation et de demodulation 22. Le signal demodule est transmis a un 
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processeur audio 23 comportant un circuit d'acquisition 24 et un decodeur 
acoustico-phonetique 25. Le circuit d'acquisition est muni d'un convertisseur 
analogique numerique (non illustre) pour realiser Techantillonnage du signal 
audio en bande de base a une frequence de 22 kHz. 

5 

Le decodeur acoustico-phonetique traduit les echantillons 
numeriques en symboles acoustiques choisis dans un alphabet predetermine. 

Un decodeur linguistique 26 traite ces symboles dans le but de 
determiner, pour une sequence A de symboles, la sequence W de mots la plus 

10 probable, etant donne la sequence A. Le decodeur linguistique 26 comporte un 
moteur de reconnaissance 27 utilisant un modele acoustique 28 et un modele 
de langage 29. Le modele acoustique est par exemple un modele dit 'Markov 
cache ('Hidden Markov Model' ou HMM). 11 calcule de fagon connue en soi les 
scores acoustiques des sequences de mots considerees. Le modele de 

15 langage mis en oeuvre dans le present exemple de realisation est base sur une 
grammaire decrite a I'aide de regies de syntaxe de forme Backus Naur. Le 
modele de langage est utilise pour determiner une pluralite d'hypotheses de 
sequences de mots et pour calculer des scores linguistiques. 

20 Le moteur de reconnaissance est base sur un algorithme de type 

Viterbi appele 'n-best'. L'algorithme de type n-best determine ci chaque etape de 
Tanalyse d'une phrase les n sequences de mots les plus probables. En fin de 
phrase, la solution la plus probable est choisie parmi les n candidats, a partir 
des scores fournis par le modele acoustique et le modele de langage. 

25 

Le recepteur de television comprend en outre un microprocesseur 
30, une memoire vive 31 et une memoire morte 32, connectes a un bus interne 
33. Bien que le processeur audio et le decodeur linguistique sclent representes 
comme des circuits separes sur la figure 1, au moins le decodeur acoustico- 
30 phonetique et le decodeur linguistique peuvent etre implementes sous la forme 
d'un logiciel stocke dans la memoire morte 32 et execute par le 
microprocesseur 30. 

Le recepteur de television comprend egalement un circuit d'affichage 
35 sur ecran ('OSD') 34 apte a generer des signaux video representatifs de menus 
de commande du recepteur, de textes et/ou de graphiques. Le circuit 34 est 
egalement controlable par des applications de type guide de programmes 
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§lectronique executees par le microprocesseur 30. Le cas echeant, les signaux 
gen6res par le circuit 34 viennent remplacer partiellement ou totalement ceux 
issus des circuits de traitement du signal video (non illustres) regu par antenne. 
Un tube cathodique (non illustre) muni des circuits de deflexion appropri6s 
5 permet d'afficher les signaux vid6o. 

On decrira maintenant plus particulierement le fonctionnement du 
moteur de reconnaissance. Comme mentionne, ce dernier utilise un algorithme 
de type Viterbi (algorithme n-best) pour analyser une phrase composee d'une 

10 sequence de symboles (vecteurs) acoustiques. Uaigorithnne determine les N 
sequences de mots les plus probables, etant donne la sequence A de symboles 
acoustiques observee jusqu'au symbole courant. Les sequences de mots les 
plus probables sont determinees a travers le modele de langage de type 
gramnhaire stochastiques. En liaison avec les modeles acoustiques des 

15 Elements terminaux de la grammaire, qui sont bases sur des HMM (Modeles de 
Markov caches ou 'Hidden Markov Models'), on produit alors un modele de 
Markov cache global pour rapplication, qui inclut done le modele de langage et 
par exemple les phenomenes de coarticulations entre elements terminaux. 
L'algorithme de Viterbi est mis en cBuvre en parallele, mais au lieu de retenir 

20 une seule transition vers chaque etat lors de iteration i. on retient pour chaque 
^tat les N transitions les plus probables. 

Des informations concernant enparticulier les algorithmes de Viterbi, 
de recherche par faisceau et de 'n-besf sont donnees dans Touvrage : 
25 "Statistical methods for speech recognition" par Frederick Jelinek, 

MIT Press 1999 ISBN 0-262-10066-5, chapitres 2 et 5 en particulier. 

L'analyse effectuee par le moteur de reconnaissance s'arrete lorsque 
Tensemble des symboles acoustiques relatifs a une phrase ont ete traites. Le 

30 moteur de reconnaissance dispose alors d'un treillis constitue des etats a 
chaque iteration precedente de l'algorithme et des transitions entre ces etats, 
jusqu'aux etats finaux. En dernier lieu, on retient parmi les etats finaux et leurs 
N transitions associees les N transitions les plus probables. En retragant les 
transitions a partir des etats finaux, on determine les N sequences de mots les 

35 plus probables correspondant aux symboles acoustiques. Ces sequences sont 
alors soumises a un traitement utilisant un parseur dans le but de selectionner 
I'unique sequence finale sur des criteres grammaticaux. 
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Selon le present exemple de realisation, le dernier symbole a 
analyser avant de proceder au retragage est suppose regu une fois que 
rinterlocuteur relache Tinterrupteur 16 de la telecommande. La telecx)mmande 

5 n'emet alors plus de porteuse RF. Cette absence de porteuse est detectee de 
fagon connue par le circuit de syntonisatlon 22, qui avertit le microprocesseur 
du recepteur par une interruption appropriee. Le moteur de reconnaissance 
termine alors son analyse sur la base des symboles acoustiques regus et 
fournit la sequence de nnots la plus probable a rapplication qui gere le guide de 

10 programmes. 

Ceci permet de prendre en compte un signal volontaire de la part de 
Tutilisateur de terminer Tanalyse de la phrase en cours. Le signal vocal et 
rinfonnatlon de fin de phrase ne sont done pas correles. 

15 

Selon une variante de realisation, le recepteur suppose que 
rinterlocuteur a fini d'enoncer son texte lorsqu'arrive le premier des evenements 
suivants : detection d'absence de porteuse ou detection de silence pendant un 
intervalle de temps determine. 

20 

Selon un mode de realisation particulier, la telecommande 6met un 
signal specifique suite au relachement de Tinterrupteur 16 et avant de couper 
ralimentation du microphone et des circuits d'emission. dans le but defaciliter la 
detection du relachement par le recepteur. Ce signal specifique est par exemple 
25 une salve a une frequence particuliere. 

Selon un mode de realisation particulier de Tinvention, Talimentation 
n'est coupee qu'apres une temporisation predeterminee. dans le but d'6viter les 
consequences d'un relachement provisoire involontaire de I'interrupteur 16. 
30 Cette temporisation est par exemple de Tordre d'une demi-seconde. Si 
rinterrupteur 16 est de nouveau actionne durant cette temporisation, alors 
ralimentation du microphone et des circuits d'emission de la telecommande est 
maintenue. 

35 Bien que le signal de fin de donnees vocales soit declenche grace a 

une telecommande dans Texemple de realisation decrit ci-dessus, d'autres 
moyens peuvent etre utilises, notamment des touches du dispositif recepteur. 
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Revendications 

1. Dispositif de reconnaissance vocale caracterise en ce qu'il 

5 comporte 

- un circuit (23, 24, 25) d'acquisition d'un signal comportant des 
donnees vocales en provenance d'un utilisateur, 

- des moyens de detection (22. 30) d'un signal de fin de donnees 
vocales genere par intervention de Tutilisateur. 

10 - des moyens d'analyse (26) des donnees vocales aptes a modifier 

revolution de I'analyse en fonction du signal de fin de donnees vocales. 

2. Dispositif selon la revendication 1, caracterise en ce que les 
moyens d'analyse des donnees vocales finalisent {'analyse des donnees 

15 vocales precedemment stockees sur reception du signal de fin de donnees 
vocales. 

3. Dispositif selon les revendications 1 ou 2, caracterise en ce que 
les moyens d'analyse mettent en oeuvre un algorithme de type Viterbi et en ce 

20 que le retra9age a travers des etats passes pour determiner une ou plusieurs 
sequences de mots susceptibles de correspondre aux donnees vocales est 
demarre des reception du signal de fin de donnees vocales, 

4. Dispositif selon Tune des revendications 1 a 3, caracterise en ce 
25 que le signal de fm de donnees est g6nere par activation manuelle d'un moyen 

de generation (16) de signal par I'utllisateur. 

5. Dispositif selon la revendication 4, caracterise en ce que le moyen 
de generation de signal de fin de donnees comporte un interrupteur (16) d'une 

30 t6lecommande (1). 

6. Dispositif selon I'une des revendications 1 a 5, caracteris6 en ce 
que le signal comportant les donnees vocales est regu par transmission sans fil. 

35 7. Dispositif de telecommande (1) comportant un microphone (13) 

pour g6nerer un signal comportant des donnees vocales et des circuits 
d'emission (14. 15) du signal comportant des donnees vocales caracteris6 en 




9 

ce qu'il comporte en outre des moyens (11, 14, 15, 16) de generation et 
d'emission d'un signal de fin de donnees vocales actionnables par un 
utilisateur. 

5 8. Dispositif selon la revendication 7. caracterise en ce que les 

moyens de generation de signal de fin de donnees vocales comprennent un 
interrupteur (16) actionnable par Tutilisateur. 

9. Dispositif selon la revendication 8, caracterise en ce que 
10 rinterrupteur (16) est dispose de maniere a controler le fonctionnement des 

circuits d'emission (14, 15) du signal comportant des donnees vocales. 

10. Dispositif selon Tune des revendications 7 ou 8, caracterise en ce 
que le signal de fin de donnees vocales est constitue par le passage de la 

15 presence de porteuse du signal comportant des donnees vocales a Tabsence 
de porteuse. 

11. Precede de reconnaissance vocale caracterise en ce qu'il 
comporte les etapes : 

20 - d'acquisition d'un signal comportant des donnees vocales, 

- d'analyse du signal acquis en vue de la recherche de mots ou de 
sequences de mots representatifs du signal acquis, Tanalyse comportant 
plusieurs phases successives, 

- de conditionnement de franchissement d'au moins une phase a la 
25 reception d*un signal de fin de donnees vocales declenche par un utilisateur. 

12. Precede selon la revendication 11, caracterise en ce que Tetape 
d'analyse du signal acquis comporte une phase de determination en parallele 
d'une pluralite de mots ou de sequences de mots candidats representatifs du 

30 signal acquis, et une phase de choix d'un mot ou d'une sequence de mots 
parmi candidats. 
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